【AI筆記】30天從論文入門到 Pytorch 實戰：生成圖像技術概覽 Day11

2024 iThome 鐵人賽

DAY 12

AI/ ML & Data

16th鐵人賽

127 瀏覽

生成圖像模型

生成對抗網路（GAN, Generative Adversarial Network）：GAN 由生成器（Generator）和判別器（Discriminator）兩個部分組成。生成器負責生成圖像，而判別器則負責判斷生成的圖像是否真實。這兩個部分相互對抗，不斷提升生成圖像的品質。
變分自編碼器（VAE, Variational Autoencoder）：VAE 是一種自編碼器，它通過將輸入資料壓縮到潛在空間（latent space），然後再從潛在空間重建資料來生成圖像。這種方法可以生成多樣性較高的圖像。
擴散模型（Diffusion Model）：擴散模型是一種較新的生成模型，它通過逐步去除噪音來生成圖像。這種方法可以生成高質量且多樣性高的圖像。著名的擴散模型包括 Stable Diffusion 和 DALL·E 系列。
自回歸模型（Autoregressive Model）：這種模型通過逐步生成圖像的每一個像素來實現圖像生成。每一步生成的像素都依賴於之前生成的像素。DALL·E 也使用了這種方法。

Encoder: input x 分出 mean, std，融合成 latent space z (z維度比input維度低)
Decoder: 把 z 重建回 x space

生成的圖像質量可能不如 GAN 高，容易產生模糊的圖像。

VAE 在訓練過程中使用重建損失（reconstruction loss），這種損失函數鼓勵模型生成與原始數據平均特性相似的圖像，這樣會犧牲一些細節，導致生成的圖像可能會比較模糊。
生成的圖像可能缺乏細節和真實感。

由於 VAE 的潛在空間（latent space）通常是高斯分佈的混合，這使得生成的圖像在細節和真實感上可能不如 GAN（生成對抗網絡）。GAN 通過生成器和判別器的對抗訓練，可以生成更真實、更細緻的圖像。

訓練過程可能不穩定，容易出現模式崩潰（mode collapse）。

因為是由 Discriminator 判斷是否生成正確，如果 Generator 騙了 Discriminator 就變成訓練失敗。
需要大量的計算資源和時間來訓練。

同時需要訓練兩個神經網路，如果訓練失敗要重新來。
訓練資料缺乏多樣性。
僅專注於自然場景，因此無法進行多種跨模態特徵對齊，從而生成不真實影像或奇怪姿勢。

訓練過程需要大量的計算資源和時間。

這是因為 Diffusion Model 需要多次還原過程，每次都需要經過神經網路的計算。這樣的多次迭代使得訓練過程非常耗時和耗資源。
可能存在過度生成或生成重複圖像的問題。
對於一些細節和語義信息不夠準確，需要進一步改進。

所以出現了 ControlNet 和 T2I-Adapter 去改善生成品質

生成速度較慢，因為需要逐步生成每一個像素。

自回歸模型需要逐步生成每一個像素或資料點，這使得生成過程相對較慢。這種逐步生成的方式雖然可控，但在處理大規模資料時可能會變得非常耗時。
生成的圖像可能缺乏全局一致性和細節。

由於自回歸模型是逐步生成的，每一步只考慮前一步的結果，這可能導致生成的圖像缺乏全局一致性和細節。這種局部生成的方式可能會忽略整體結構和細節。
生成方式為從圖像左上方開始一個pixel一個pixel的生成，都是以前一個pixel為參考生成下一個，雖然能夠生成複雜的影像，但沒有顧及到附近pixel的關聯性
對於長序列資料的生成可能存在困難。

對於長序列資料，自回歸模型可能會遇到困難，因為隨著序列長度的增加，模型需要考慮的上下文信息也會增加，這可能導致生成的品質下降。
在訓練時是以teacher forcing的方式，但test時是以t-1時的output當作t的input，因此可能會有累積的誤差